TP 4 : Stratification

Auteur·rice

Khaled Larbi

Date de publication

27 mars 2026

Exercice 1

Le dirigeant d’un pays de 100 000 habitants souhaite connaître la fréquentation des théâtres au cours des 12 derniers mois. Pour faire cela en respectant des contraintes de coût, il fait appel à un statisticien lui recommandant d’estimer cet indicateur à l’aide d’un sondage. Le professionnel dispose d’une base de sondage des individus du pays dans laquelle se trouve deux informations auxiliaires :

  • dep : le département dans lequel l’individu vit.
  • CSP : la catégorie socio-professionnelle de l’individu en 10 classes (il ne s’agit pas de la nomenclature PCS 2020 de l’Insee).

On suppose que les théâtres sont répartis de manière similaire dans tous les départements et que tous les individus peuvent y accéder dans les mêmes conditions.

Compte tenu des coûts, l’échantillon ne peut contenir plus de 10 000 individus.

Le statisticien décide alors de comparer trois approches :

  • tirer un échantillon de 10 000 individus à l’aide d’un SRS parmi l’ensemble des habitants du pays. (tirage 1)
  • tirer un échantillon de 10 000 individus à l’aide d’un SRS stratifié par département avec allocation proportionnelle.(tirage 2)
  • tirer un échantillon de 10 000 individus à l’aide d’un SRSR stratifié par CSP avec allocation proportionnelle. (tirage 3)

Les résultats des tirages sont stockés dans les tables ech1.csv (pour le tirage 1), ech2.csv (pour le tirage 2) et ech3 (pour le tirage 3) et contiennent les informations auxiliaires ainsi qu’une variable theatre indiquant le nombre de visites au théâtre au cours des 12 derniers mois et une variable Prob indiquant la probabilité d’inclusion d’ordre un.

Dans la suite, on s’intéresse à la fréquentation moyenne par habitant et on note \(y_k\) le nombre de fois où l’individu \(k\) est allé au théâtre au cours des 12 derniers mois.

  1. Décrivez la population, la variable d’intérêt et la fonction d’intérêt. Dans la suite, nous noterons, \(\mathcal{U}\) , la population.
  2. Donnez un estimateur sans biais de \(\displaystyle \mu_y = \frac{1}{N} \sum_{k \in \mathcal{U}} y_k\) basé sur l’estimateur d’Horvitz-Thompson et la taille de la population \(N\).

Cas du tirage 1

  1. Proposez une estimation associée à cet estimateur.
  2. Proposez un estimateur de la variance de l’estimateur proposé à la question 2. On pourra se rappeler que pour une variable aléatoire \(X\) et un réel \(\lambda\), \(\mathbb{V}(\lambda X) = \lambda^2 \mathbb{V}(X)\).
  3. Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.

Cas du tirage 2

  1. En remarquant que \(\hat{t}_{y,\text{HT}} = \sum_{h \in [H]} \hat{t}_{y,\text{HT},h}\)\([H] = \{1, ..., H\}\) désigne l’ensemble des strates associées à une stratification et \(\hat{t}_{y,\text{HT},h} = \sum_{k \in \mathcal{s} \cap \mathcal{U}_h} \frac{y_k}{\pi_k}\), réécrivez l’estimateur proposé à la question 2 comme une somme d’estimateurs calculé par département.
  2. Proposez une estimation associée à cet estimateur.
  3. Proposez un estimateur de la variance de l’estimateur proposé à la question 6.
  4. Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.
  5. Comparez avec le résultat de la question 5. Est-ce que la stratification par département est efficace ? Pourquoi ?

Cas du tirage 3

  1. Donnez l’allocation associée à ce plan stratifié.
  2. Utilisez l’estimateur proposé à la question 6 avec cette nouvelle stratification.
  3. Proposez une estimation associée à cet estimateur.
  4. Proposez un estimateur de la variance de l’estimateur proposé à la question 12.
  5. Donnez un intervalle de confiance asymptotique au niveau 0.90 du total. Calculez une réalisation de cet intervalle.
  6. Comparez avec le résultat de la question 5 et 10. Est-ce que la stratification par département est efficace ? Pourquoi ?